A Teacher-Student Framework for Zero-Resource Neural Machine Translation

Motivation

Problem description

端到端的NMT在某些特定语言或领域会存在数据匮乏问题。本文定义的任务为:

  • 已有一个pivot-target的NMT系统(teacher),以及source-pivot的平行语料
  • 求得一个source-target的NMT系统(student)

即解决zero-resource的NMT问题。

Current methods

针对无平行语料的翻译任务,主要有两种方法:

  • multilingual:

    Multilingual的问题在于建模和训练时结合了多种语言,导致模型复杂度相比普通NMT增大

  • pivot-based:

    pivot可以是文本或者图片。Pivot方法通常需要将解码分成两步,计算代价高,并且会有错误传播问题

pivot-based对翻译架构透明,但第一步的错误会影响第二部分翻译。

因此需要探究直接从source到target的翻译模型。

Methods

本文基于的假设是:平行语句在生成第三种语言的一个句子时应该具有相近的概率。

这可以进一步归约到如下两个假设:

  1. 若source端语句$\textbf{x}$与pivot端语句$\textbf{z}$互为翻译,那么$\textbf{x}$和$\textbf{z}$翻译出target端语句$\textbf{y}$的概率应该接近

  2. 若source端语句$\textbf{x}$与pivot端语句$\textbf{z}$互为翻译,那么在已经获得了部分翻译$\textbf{y_{<j}}$时,$\textbf{x}$和$\textbf{z}$翻译出下一个词y的概率应该接近

Sentence-Level

针对第一种假设自然得到下面的训练目标

其中

由于teacher模型$\textbf{z}\rightarrow{\textbf{y}}$是已有固定模型,训练目标可以化为

P.S. 这里的推导与负对数似然(NLL)训练目标的推导一致

由于$\textbf{y}$指数爆炸,训练比较困难。可以采用的策略有

  • 采样
  • 生成k-best list
  • mode approximation(?)

Word-Level

针对第二种假设得到下面的训练目标

同Sentence-Level部分的推导,该训练目标等价于

Experiments

  • 验证实验

使用传统方法首先训练pivot-target模型并固定,之后训练source-target,观察两个训练目标的值,发现均有下降

  • 常规实验
  • source-pivot小数据实验

使用 word-sampling + 某篇论文中的initialization and parameter freezing strategy

Question

  1. mode approximation?
  2. initialization and parameter freezing strategy?
  3. 感觉文章很清楚明白,没什么其他想提的问题